在多元線性回歸中, 可以加入多個自變數來擬合出模型
但如同上一篇提到, 過多的自變數可能會出現共線性或是過度擬合的情況
造成模型預測的精準度不佳
再者, 當模型建立好之後, 我們也需要解釋自變量的對應變量的影響
因此我們也不希望自變量過多, 讓模型過於複雜到難以解釋(e.g.對老闆或同事解釋起來會很痛苦...)
因此我們需要對自變量進行篩選
接下來紀錄課程中提到的五種建立模型的方法
其中2,3 是常見的方法, 4 是2,3的結合
最單純的方法, 就是丟進所有的自變量
有兩種情況你可能會使用這個方法:
反向淘汰 (是被應用最多的)
簡單的原則是從所有變數中一次淘汰一個對模型解釋力最小的(結果影響最小的)變數
直到整個模型的解釋力不再降低
解釋力: 可解釋多少程度的預測結果
接下來看建模型的步驟:
step1: select a significance level to stay in the model(e.g. SL=0.05)
對於每一個變數來說, 對於結果是有影響力的, 我們稱這個影響力為p-value
再來我們會訂一個門檻叫SL(significance level)
用來評斷一個新的變數對於結果有多大的影響才可以被納入模型中
step2:Fit the full model with all possible predictors
採用所有變數做擬合
step3: Consider the predictor with the highest p-value, if P > SL, goto step 4, otherwise goto FIN
計算出每一個變數的p-value, 取最高的p-value並判斷是否大於SL, 若沒有代表模型擬合結束
step4: Remove the predictor
若上一步選擇的p-value > SL, 則移除這個變數
step5: Fit the model without this variable
重新進行擬合(此時model裡的所有變數已經少一個)
接下來就重新回到step3, 直到所有highest p-value < SL
FIN: Finished
簡單的原則是一次選一個對模型解釋力最大的變數, 直到整個模型的解釋力不再增加
接下來看建模型的步驟:
step1: select a significance level to stay in the model(e.g. SL=0.05)
訂一個門檻叫SL(significance level)
用來評斷一個新的變數對於結果有多大的影響才可以被納入模型中
step2: fit all simple regression models y~xn, select the one with the lowest p-value
進行多個簡單線性回歸, 並挑出擁有最低p-value的變數
代表這個變數的影響最大
step3:keep this variable and fit all possible models with one extra predictor added to the one(s) your already have
將這個變數加入到所有可能的模型中, 並重新擬合
step4:Consider the predictor with the lowest p-value, if p < SL , go to step 3, otherwise go to FIN
挑出最低的p值, 如果p < SL 就重新回到step3, 直到選取完所有 < SL的p-value就完成了
FIN: finished
[SAS]迴歸分析 — 模型挑選 Regression feature selection
https://wenwu53.com/sas-regression-model-selection/
今天的資訊量很龐大
剩下的4,5 兩個方法我留到明天再看XD